Obecnie duża część społeczeństwa regularnie korzysta z mediów społecznościowych, a liczba użytkowników najpopularniejszych portali społecznościowych nie przestaje rosnąć. Często zadaje się jednak pytanie, jak czas spędzony na social media wpływa na nasze zdrowie psychiczne, przy czym sporo źródeł twierdzi, że ma on wpływ negatwyny.
Celem poniższej analizy statystycznej jest zatem odpowiedzenie na następujące pytania:
Aby uzyskać na nie odpowiedzi, zajmę się zestawem danych z platformy Kaggle.com. Prezentuje on wyniki przeprowadzonej w 2022 roku ankiety, w której wzięło udział 481 osób o różnym wieku, płci oraz wykształceniu.
W projekcie korzystam z następujących bibliotek:
library(dplyr)
library(mice)
library(shiny)
library(ggplot2)
library(knitr)
library(psych)
library(moments)
library(plotly)
Zaczynam od wczytania pliku z danymi.
dataset<- read.csv("C:/Users/golak/OneDrive/Pulpit/smmh.csv", sep = ",")
Następnie w odpowiedni sposób go modyfikuję i zostawiam jedynie niezbędne do przeprowadzenia analizy kolumny.
new_dataset <- select(dataset, -c('Timestamp', 'X5..What.type.of.organizations.are.you.affiliated.with.', 'X19..On.a.scale.of.1.to.5..how.frequently.does.your.interest.in.daily.activities.fluctuate.',
'X9..How.often.do.you.find.yourself.using.Social.media.without.a.specific.purpose.', 'X13..On.a.scale.of.1.to.5..how.much.are.you.bothered.by.worries.',
'X12..On.a.scale.of.1.to.5..how.easily.distracted.are.you.', 'X15..On.a.scale.of.1.5..how.often.do.you.compare.yourself.to.other.successful.people.through.the.use.of.social.media.',
'X16..Following.the.previous.question..how.do.you.feel.about.these.comparisons..generally.speaking.', 'X19..On.a.scale.of.1.to.5..how.frequently.does.your.interest.in.daily.activities.fluctuate.', 'X6..Do.you.use.social.media.', 'X17..How.often.do.you.look.to.seek.validation.from.features.of.social.media.'
))
Dla ułatwienia zmieniam również nazwy kolumn.
base_dataset <- new_dataset %>%
rename(Age = X1..What.is.your.age., Gender = X2..Gender, RelationshipStatus = X3..Relationship.Status,
OccupationStatus = X4..Occupation.Status,
UsedSocialMediaPlatforms = X7..What.social.media.platforms.do.you.commonly.use.,
DailyAverageTimeOnSocialMedia = X8..What.is.the.average.time.you.spend.on.social.media.every.day.,
FrequencyOfDistracionBySocialMedia = X10..How.often.do.you.get.distracted.by.Social.media.when.you.are.busy.doing.something.,
FeelingRestlessWithoutSocialMedia = X11..Do.you.feel.restless.if.you.haven.t.used.Social.media.in.a.while.,
DifficultyToConcentrate = X14..Do.you.find.it.difficult.to.concentrate.on.things.,
FeelingDepressedOrDown = X18..How.often.do.you.feel.depressed.or.down., IssuesRegardingSleep = X20..On.a.scale.of.1.to.5..how.often.do.you.face.issues.regarding.sleep. )
Modyfikuję też niektóre kolumny z danymi.
base_dataset <- base_dataset %>%
mutate (Gender =
ifelse (Gender %in% c("Male", "Female"), Gender, "Other" ))
base_dataset$DailyAverageTimeOnSocialMedia <- as.factor(base_dataset$DailyAverageTimeOnSocialMedia)
levels(base_dataset$DailyAverageTimeOnSocialMedia) <- c("Less than an Hour","Between 1 and 2 hours","Between 2 and 3 hours","Between 3 and 4 hours","Between 4 and 5 hours","More than 5 hours")
Teraz mam gotowy zestaw danych o nazwie base_dataset, na którym będę pracować podczas dalszych etapów analizy.
Ponadto tworzę pomocnicze kolumny, opisujące czy dana osoba korzysta z konkretnej platformy społecznościowej (wartości numeryczne : 1 = Tak, 0 = Nie).
base_dataset$UseOfInstagram <- as.numeric(grepl("Instagram", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfFacebook <- as.numeric(grepl("Facebook", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfSnapchat <- as.numeric(grepl("Snapchat", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfTikTok <- as.numeric(grepl("TikTok", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfTwitter <- as.numeric(grepl("Twitter", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfYouTube <- as.numeric(grepl("YouTube", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfReddit <- as.numeric(grepl("Reddit", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfDiscord <- as.numeric(grepl("Discord", base_dataset$UsedSocialMediaPlatforms))
base_dataset$UseOfPinterest <- as.numeric(grepl("Pinterest", base_dataset$UsedSocialMediaPlatforms))
Na początku oglądam dane:
head(base_dataset, 5) #5 poczatkowych wartości
## Age Gender RelationshipStatus OccupationStatus
## 1 21 Male In a relationship University Student
## 2 21 Female Single University Student
## 3 21 Female Single University Student
## 4 21 Female Single University Student
## 5 21 Female Single University Student
## UsedSocialMediaPlatforms
## 1 Facebook, Twitter, Instagram, YouTube, Discord, Reddit
## 2 Facebook, Twitter, Instagram, YouTube, Discord, Reddit
## 3 Facebook, Instagram, YouTube, Pinterest
## 4 Facebook, Instagram
## 5 Facebook, Instagram, YouTube
## DailyAverageTimeOnSocialMedia FrequencyOfDistracionBySocialMedia
## 1 Between 1 and 2 hours 3
## 2 More than 5 hours 3
## 3 Between 2 and 3 hours 2
## 4 More than 5 hours 2
## 5 Between 1 and 2 hours 5
## FeelingRestlessWithoutSocialMedia DifficultyToConcentrate
## 1 2 5
## 2 2 4
## 3 1 4
## 4 1 3
## 5 4 5
## FeelingDepressedOrDown IssuesRegardingSleep UseOfInstagram UseOfFacebook
## 1 5 5 1 1
## 2 5 5 1 1
## 3 4 5 1 1
## 4 4 2 1 1
## 5 4 1 1 1
## UseOfSnapchat UseOfTikTok UseOfTwitter UseOfYouTube UseOfReddit UseOfDiscord
## 1 0 0 1 1 1 1
## 2 0 0 1 1 1 1
## 3 0 0 0 1 0 0
## 4 0 0 0 0 0 0
## 5 0 0 0 1 0 0
## UseOfPinterest
## 1 0
## 2 0
## 3 1
## 4 0
## 5 0
tail (base_dataset, 5) #5 końcowych wartości
## Age Gender RelationshipStatus OccupationStatus
## 477 24 Male Single Salaried Worker
## 478 26 Female Married Salaried Worker
## 479 29 Female Married Salaried Worker
## 480 21 Male Single University Student
## 481 53 Male Married Salaried Worker
## UsedSocialMediaPlatforms
## 477 Facebook, Instagram, YouTube
## 478 Facebook, YouTube
## 479 Facebook, YouTube
## 480 Facebook, Twitter, Instagram, YouTube, Discord, Pinterest
## 481 Facebook, YouTube
## DailyAverageTimeOnSocialMedia FrequencyOfDistracionBySocialMedia
## 477 Between 1 and 2 hours 4
## 478 Less than an Hour 1
## 479 Between 1 and 2 hours 3
## 480 Between 1 and 2 hours 3
## 481 Between 4 and 5 hours 3
## FeelingRestlessWithoutSocialMedia DifficultyToConcentrate
## 477 3 4
## 478 2 4
## 479 4 3
## 480 2 2
## 481 1 1
## FeelingDepressedOrDown IssuesRegardingSleep UseOfInstagram UseOfFacebook
## 477 3 4 1 1
## 478 4 1 0 1
## 479 2 2 0 1
## 480 4 4 1 1
## 481 2 3 0 1
## UseOfSnapchat UseOfTikTok UseOfTwitter UseOfYouTube UseOfReddit
## 477 0 0 0 1 0
## 478 0 0 0 1 0
## 479 0 0 0 1 0
## 480 0 0 1 1 0
## 481 0 0 0 1 0
## UseOfDiscord UseOfPinterest
## 477 0 0
## 478 0 0
## 479 0 0
## 480 1 1
## 481 0 0
str(base_dataset) #struktura pliku
## 'data.frame': 481 obs. of 20 variables:
## $ Age : num 21 21 21 21 21 22 21 21 21 20 ...
## $ Gender : chr "Male" "Female" "Female" "Female" ...
## $ RelationshipStatus : chr "In a relationship" "Single" "Single" "Single" ...
## $ OccupationStatus : chr "University Student" "University Student" "University Student" "University Student" ...
## $ UsedSocialMediaPlatforms : chr "Facebook, Twitter, Instagram, YouTube, Discord, Reddit" "Facebook, Twitter, Instagram, YouTube, Discord, Reddit" "Facebook, Instagram, YouTube, Pinterest" "Facebook, Instagram" ...
## $ DailyAverageTimeOnSocialMedia : Factor w/ 6 levels "Less than an Hour",..: 2 6 3 6 2 2 3 6 6 5 ...
## $ FrequencyOfDistracionBySocialMedia: int 3 3 2 2 5 4 3 2 2 1 ...
## $ FeelingRestlessWithoutSocialMedia : int 2 2 1 1 4 2 2 3 3 1 ...
## $ DifficultyToConcentrate : int 5 4 4 3 5 3 3 1 1 1 ...
## $ FeelingDepressedOrDown : int 5 5 4 4 4 3 5 5 5 1 ...
## $ IssuesRegardingSleep : int 5 5 5 2 1 4 3 1 1 1 ...
## $ UseOfInstagram : num 1 1 1 1 1 1 1 1 1 0 ...
## $ UseOfFacebook : num 1 1 1 1 1 1 1 1 1 0 ...
## $ UseOfSnapchat : num 0 0 0 0 0 0 1 0 0 0 ...
## $ UseOfTikTok : num 0 0 0 0 0 1 1 0 0 0 ...
## $ UseOfTwitter : num 1 1 0 0 0 1 0 0 0 0 ...
## $ UseOfYouTube : num 1 1 1 0 1 1 1 1 1 0 ...
## $ UseOfReddit : num 1 1 0 0 0 0 0 0 0 1 ...
## $ UseOfDiscord : num 1 1 0 0 0 1 0 0 0 0 ...
## $ UseOfPinterest : num 0 0 1 0 0 1 0 0 0 1 ...
Sprawdzam również za pomocą pakietu mice, czy w zestawie danych znajdują się braki.
md.pattern(base_dataset)
## /\ /\
## { `---' }
## { O O }
## ==> V <== No need for mice. This data set is completely observed.
## \ \|/ /
## `-----'
## Age Gender RelationshipStatus OccupationStatus UsedSocialMediaPlatforms
## 481 1 1 1 1 1
## 0 0 0 0 0
## DailyAverageTimeOnSocialMedia FrequencyOfDistracionBySocialMedia
## 481 1 1
## 0 0
## FeelingRestlessWithoutSocialMedia DifficultyToConcentrate
## 481 1 1
## 0 0
## FeelingDepressedOrDown IssuesRegardingSleep UseOfInstagram UseOfFacebook
## 481 1 1 1 1
## 0 0 0 0
## UseOfSnapchat UseOfTikTok UseOfTwitter UseOfYouTube UseOfReddit
## 481 1 1 1 1 1
## 0 0 0 0 0
## UseOfDiscord UseOfPinterest
## 481 1 1 0
## 0 0 0
Widać zatem, że ten zestaw danych jest kompletny.
Na poniższych wykresach przedstawiono rozbicie ankietowanych wg różnych kategorii.
Pierwszy wykres prezentuje rozkład wiekowy.
base_dataset %>%
ggplot() +
geom_histogram(mapping = aes(x = Age),
binwidth = 4,
fill = "skyblue",
colour = "black") +
labs(title = "Rozkład wieku ankietowanych", x = "Wiek", y = "Liczba osób") +
theme_bw()
Następny wykres ilustruje proporcje płci.
ggplot(base_dataset, aes(x = "", fill = Gender)) +
geom_bar(width = 1, stat = "count") +
coord_polar(theta = "y") +
labs(title = "Proporcje płci", fill = "Płeć") +
theme_bw() +
scale_fill_brewer() +
theme(axis.title = element_blank())
Trzeci wykres przedstawia zróżnicowanie ze względu na stan cywilny.
ggplot(base_dataset, aes(x = "", fill = RelationshipStatus)) +
geom_bar(width = 1, stat = "count") +
coord_polar(theta = "y") +
labs(title = "Stan cywilny ankietowanych", fill = "Stan cywilny") +
theme_bw() +
scale_fill_brewer() +
theme(axis.title = element_blank())
Ostatni wykres pozwala na zobaczenie, jaki jest status zawodowy ankietowanych.
ggplot(base_dataset, aes(x = "", fill = OccupationStatus)) +
geom_bar(width = 1, stat = "count") +
coord_polar(theta = "y") +
labs(title = "Status zawodowy ankietowanych", fill = "Status zawodowy") +
theme_bw() +
scale_fill_brewer() +
theme(axis.title = element_blank())
W tej części analizy zbadam, czy jest jakaś konkretna grupa społeczeństwa, która korzysta z social media więcej niż pozostałe.
W tej części analizy zbadam, czy istnieje zależność między czasem, jaki ankietowani poświęcają na korzystanie z mediów społecznościowych a poszczególnymi aspektami związanymi ze zdrowiem psychicznym.
Widać, że odpowiedzi grupy, która średnio korzysta dziennie od 4 do 5 godzin z mediów społecznościowych, wyraźnie odbiegają od trendów. Przeanalizuję zatem strukturę tej grupy w celu próby uzyskania odpowiedzi na pytanie, dlaczego tak się dzieje.
Najpierw oglądam dane:
table(base_dataset$DailyAverageTimeOnSocialMedia)
##
## Less than an Hour Between 1 and 2 hours Between 2 and 3 hours
## 70 101 93
## Between 3 and 4 hours Between 4 and 5 hours More than 5 hours
## 67 34 116
Widać, że grupa osób korzystających 4-5 godzin dziennie z social media jest dwukrotnie mniejsza niż wszystkie pozostałe grupy ankietowanych. Zatem ta niewielka liczba próbek może wpływać na ogólną reprezentatywność tej kategorii i utrudniać wyciąganie pełnych wniosków dotyczących tej grupy.
Ponadto tworzę tabelę, która pozwoli na zbadanie struktury tej grupy:
grupa_od4do5h <- base_dataset %>%
filter(DailyAverageTimeOnSocialMedia == "Between 4 and 5 hours") %>%
select(Age, Gender, RelationshipStatus, OccupationStatus)
Sprawdzam, jak wygląda struktura wieku w tej grupie:
summary(grupa_od4do5h$Age)
## Min. 1st Qu. Median Mean 3rd Qu. Max.
## 17.0 23.0 35.5 35.0 47.0 53.0
Widzimy, że średnia wieku jest dość duża, wobec tego zbadam, czy wiek ma wpływ na poszczególne aspekty związane ze zdrowiem psychicznym poprzez obliczenie współczynnika korelacji Pearsona:
# wiek a częstość złego samopoczucia
cor.test(
x = base_dataset$Age,
y = base_dataset$FeelingDepressedOrDown,
method = "pearson"
)
##
## Pearson's product-moment correlation
##
## data: base_dataset$Age and base_dataset$FeelingDepressedOrDown
## t = -6.9733, df = 479, p-value = 1.032e-11
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3826044 -0.2201501
## sample estimates:
## cor
## -0.3035819
#wiek a częstość odczuwania niepokoju bez social media
cor.test(
x = base_dataset$Age,
y = base_dataset$FeelingRestlessWithoutSocialMedia,
method = "pearson"
)
##
## Pearson's product-moment correlation
##
## data: base_dataset$Age and base_dataset$FeelingRestlessWithoutSocialMedia
## t = -2.7755, df = 479, p-value = 0.005728
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.21281955 -0.03681284
## sample estimates:
## cor
## -0.1258061
#wiek a częstość rozpraszania przez social media
cor.test(
x = base_dataset$Age,
y = base_dataset$FrequencyOfDistracionBySocialMedia,
method = "pearson"
)
##
## Pearson's product-moment correlation
##
## data: base_dataset$Age and base_dataset$FrequencyOfDistracionBySocialMedia
## t = -5.2248, df = 479, p-value = 2.606e-07
## alternative hypothesis: true correlation is not equal to 0
## 95 percent confidence interval:
## -0.3150684 -0.1458222
## sample estimates:
## cor
## -0.2322021
Współczynnik korelacji Pearsona w każdym z tych 3 przypadków jest niewielki oraz ujemny, co wskazuje na to, że istnieje słaba, odwrotnieproporcjonalna (im niższy wiek tym większa częstość) zależność między wyżej przedstawionymi aspektami dot. zdrowia psychicznego
Sprawdzę też, jak wygląda pozostała część tabeli.
table(grupa_od4do5h$Gender)
##
## Female Male
## 7 27
table(grupa_od4do5h$RelationshipStatus)
##
## Divorced In a relationship Married Single
## 3 2 17 12
table(grupa_od4do5h$OccupationStatus)
##
## Salaried Worker School Student University Student
## 21 1 12
Stan cywilny i zawodowy w tej grupie jest dość zróżnicowany, jednak widać, że zdecydowanie przeważają tu mężczyźni. Sprawdzę więc, czy istnieje zależność między płcią a opisanymi wyżej aspektami dotyczącymi zdrowia psychicznego:
base_dataset %>%
ggplot() +
geom_bar(aes(x = Gender, fill = factor(FeelingDepressedOrDown)),
color = "white",
position = "fill") +
scale_fill_brewer(palette="Blues") +
theme_light() +
labs(title = "Rozkład częstości złego samopoczucia a płeć",
x = "Płeć",
y = "Odsetek odpowiedzi",
fill = "Częstość złego samopoczucia:")
Można zauważyć, że kobiety oraz osoby nieidentyfikujące się z żadną płcią czują się źle średnio częściej niż mężczyźni.
base_dataset %>%
ggplot() +
geom_bar(aes(x = Gender, fill = factor(FeelingRestlessWithoutSocialMedia)),
color = "white",
position = "fill") +
scale_fill_brewer(palette="Blues") +
theme_light() +
labs(title = "Rozkład częstości niepokoju bez social media a płeć",
x = "Płeć",
y = "Odsetek odpowiedzi",
fill = "Częstość niepokoju:")
Ponadto, obserwuje się, że zarówno kobiety, jak i osoby nieidentyfikujące się z żadną płcią doświadczają uczucia niepokoju bez mediów społecznościowych częściej niż mężczyźni.
base_dataset %>%
ggplot() +
geom_bar(aes(x = Gender, fill = factor(FrequencyOfDistracionBySocialMedia)),
color = "white",
position = "fill") +
scale_fill_brewer(palette="Blues") +
theme_light() +
labs(title = "Rozkład częstości rozpraszania przez social media a płeć",
x = "Płeć",
y = "Odsetek odpowiedzi",
fill = "Częstość rozpraszania:")
Na ostatnim wykresie widać, że kobiety minimalnie częściej rozpraszają się przez social media niż pozostałe płcie.
Wobec tego być może również wysoki średni wiek oraz brak zróżnicowania pod względem płci w grupie ankietowanych, która korzysta z mediów społecznościowych od 4 do 5 godzin dziennie, oddziałują negatywnie na wyniki analizy wpływu social media na zdrowie psychiczne.
W tej części analizy za pomocą wykresów zbadam, czy stan cywilny i zawodowy ma wpływ na zdrowie psychiczne ankietowanych, uwzględniając przy tym liczbę godzin spędzanych na mediach społecznościowych każdego dnia.
Za pomocą wykresów przedstawię poszczególne zależności:
plot <- base_dataset %>%
ggplot(aes(x = FrequencyOfDistracionBySocialMedia, y = DailyAverageTimeOnSocialMedia, fill = RelationshipStatus)) +
geom_bar(stat = "summary", fun = "mean", position = "dodge", width = 0.5) +
labs(title = "Ilość korzystania z mediów a częstość rozpraszania się",
x = "Średnia częstość rozpraszania się",
y = "Czas korzystania z mediów",
fill = "Stan cywilny") +
theme_light() +
scale_fill_brewer(palette = "Blues")
ggplotly(plot)
Można zaobserwować, że osoby w związku małżeńskim najrzadziej rozpraszają się przez media społecznościowe, choć nie jest to duża różnica w stosunku do pozostałych grup.
plot <- base_dataset %>%
ggplot(aes(x = FeelingDepressedOrDown, y = DailyAverageTimeOnSocialMedia, fill = RelationshipStatus)) +
geom_bar(stat = "summary", fun = "mean", position = "dodge", width = 0.5) +
labs(title = "Ilość korzystania z mediów a złe samopoczucie",
x = "Średnia częstość złego samopoczucia",
y = "Czas korzystania z mediów",
fill = "Stan cywilny") +
theme_light() +
scale_fill_brewer(palette = "Blues")
ggplotly(plot)
Średnio najrzadziej źle czują się osoby w związku małżeńskim, a najczęściej single i osoby w związku. U osób rozwiedzionych widać też wyraźną zależność - wraz ze wzrostem czasu korzystania z mediów rośnie częstość złego samopoczucia.
Za pomocą wykresów przedstawię poszczególne zależności:
plot <- base_dataset %>%
ggplot(aes(x = FrequencyOfDistracionBySocialMedia, y = DailyAverageTimeOnSocialMedia, fill = OccupationStatus)) +
geom_bar(stat = "summary", fun = "mean", position = "dodge", width = 0.5) +
labs(title = "Ilość korzystania z mediów a częstość rozpraszania się",
x = "Średnia częstość rozpraszania się",
y = "Czas korzystania z mediów",
fill = "Stan zawodowy") +
theme_light() +
scale_fill_brewer(palette = "Blues")
ggplotly(plot)
Można zaobserwować, że najczęściej rozpraszają się osoby na emeryturze, a częstość ta rośnie wraz z czasem korzystania z mediów. Drugą najczęściej rozpraszają się grupą ankietowanych są natomiast studenci.
plot <- base_dataset %>%
ggplot(aes(x = FeelingDepressedOrDown, y = DailyAverageTimeOnSocialMedia, fill = OccupationStatus)) +
geom_bar(stat = "summary", fun = "mean", position = "dodge", width = 0.5) +
labs(title = "Ilość korzystania z mediów a złe samopoczucie",
x = "Średnia częstość złego samopoczucia",
y = "Czas korzystania z mediów",
fill = "Stan zawodowy") +
theme_light() +
scale_fill_brewer(palette = "Blues")
ggplotly(plot)
Widać, że osoby pracujące czują się źle najrzadziej, a studenci najczęściej. Nie zależy to jednak od czasu korzystania z social media.
Aby odpowiedzieć na to pytanie przeprowadzam testy niezależności chi-kwadrat w celu zbadania, czy istnieje zależność między dziennym czasem korzystania z mediów społecznościowych a tym, czy osoba ankietowana korzysta z poszczególnych plaform. Żeby uzyskać pozwala bardziej dokładne wartości p-value dodaję argument simulate.p.value = TRUE, który dodatkowo pozwala na wygenerowanie wielu losowych próbek i porównanie uzyskanej statystyki testowej z rozkładem próbek.
#Instagram
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfInstagram)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 38.416, df = NA, p-value = 0.0004998
#Facebook
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfFacebook)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 7.7447, df = NA, p-value = 0.1639
#Snapchat
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfSnapchat)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 23.444, df = NA, p-value = 0.0009995
#TikTok
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfTikTok)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 24.399, df = NA, p-value = 0.0009995
#Twitter
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfTwitter)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 1.4289, df = NA, p-value = 0.9255
#YouTube
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfYouTube)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 12.385, df = NA, p-value = 0.03098
#Reddit
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfReddit)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 4.3808, df = NA, p-value = 0.5107
#Discord
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfDiscord)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 19.906, df = NA, p-value = 0.001499
#Pinterest
tablica_przestawna <- table(base_dataset$DailyAverageTimeOnSocialMedia, base_dataset$UseOfPinterest)
chisq.test(tablica_przestawna, simulate.p.value = TRUE)
##
## Pearson's Chi-squared test with simulated p-value (based on 2000
## replicates)
##
## data: tablica_przestawna
## X-squared = 9.1167, df = NA, p-value = 0.1059
Z przeprowadzonych testów wynika, że Instagram, Snapchat, TikTok i Discord wydają się być platformami, które mają istotny wpływ na ogólny czas spędzany na mediach społecznościowych. W przypadku innych platform, takich jak Facebook, Twitter, Reddit i Pinterest, brak jest silnych statystycznych dowodów na istotne zależności.
P-value jest najmniejsze w przypadku korzystania z Instagrama, wobec tego można wywnioskować, że Instagram uzależnia najbardziej.
Zależność między czasem spędzanym na mediach społecznościowych a korzystaniem z Instagrama dobrze obrazuje też wykres:
base_dataset %>%
ggplot(aes(y = DailyAverageTimeOnSocialMedia, fill = factor(UseOfInstagram))) +
geom_bar(stat = "count", position = "dodge", width = 0.7) +
labs(title = "Dzienny czas na mediach społecznościowych z podziałem na korzystanie z Instagrama",
x = "Liczba osób",
y = "Czas korzystania z mediów",
fill = "Instagram") +
theme_light() + scale_fill_brewer(palette = "Blues")
Za pomocą wykresów punktowych zbadam, czy istnieje korelacja między korzystaniem z Instagrama a częstością złego samopoczucia, niepokoju, rozpraszania się czy trudności z koncentracją. Celem jest zidentyfikowanie ewentualnych tendencji, które mogą wskazywać na wpływ korzystania z Instagrama na ogólne samopoczucie psychiczne respondentów.
plot <- base_dataset %>%
ggplot() +
geom_point(aes(x = FeelingDepressedOrDown, y = DailyAverageTimeOnSocialMedia, color = factor(UseOfInstagram)),
position = "jitter", size = 2) +
theme_light() +
labs(title = "Złe samopoczucie a czas na mediach społecznościowych",
x = "Złe samopoczucie",
y = "Dzienny czas na mediach społecznościowych",
color = "Korzystanie z Instagrama") + scale_color_manual(values = c("0" = "lightblue", "1" = "darkblue"))
ggplotly(plot)
Można zauważyć, że osoby korzystające z Instagrama (szczególnie w dużych ilościach) na ogół częściej czują się przygnębione.
plot <- base_dataset %>%
ggplot() +
geom_point(aes(x = FeelingRestlessWithoutSocialMedia, y = DailyAverageTimeOnSocialMedia, color = factor(UseOfInstagram)),
position = "jitter", size = 2) +
theme_light() +
labs(title = "Uczucie niepokoju bez mediów a czas na mediach społecznościowych",
x = "Niepokój bez social media",
y = "Dzienny czas na mediach społecznościowych",
color = "Korzystanie z Instagrama") + scale_color_manual(values = c("0" = "lightblue", "1" = "darkblue"))
ggplotly(plot)
Na powyższym wykresie widać, że ankietowani, którzy nie używają Instagrama rzadziej odczuwają niepokój bez mediów społecznościowych. Nie da się stwierdzić jednak, że użytkownicy Instagrama odczuwają go wyraźnie częściej.
plot <- base_dataset %>%
ggplot() +
geom_point(aes(x = FrequencyOfDistracionBySocialMedia, y = DailyAverageTimeOnSocialMedia, color = factor(UseOfInstagram)),
position = "jitter", size = 2) +
theme_light() +
labs(title = "Rozpraszanie się przez media a czas na mediach społecznościowych",
x = "Częstość rozpraszania się przez media",
y = "Dzienny czas na mediach społecznościowych",
color = "Korzystanie z Instagrama") + scale_color_manual(values = c("0" = "lightblue", "1" = "darkblue"))
ggplotly(plot)
Z wykresu można odczytać, że użytkownicy Instagrama dużo częściej rozpraszają się z powodu social media niż osoby niekorzystające z tej platformy. Widać też, że dzienny czas na mediach społecznościowych w małym stopniu wpływa na częstość rozpraszania się użytkowników Instagrama.
plot <- base_dataset %>%
ggplot() +
geom_point(aes(x = DifficultyToConcentrate, y = DailyAverageTimeOnSocialMedia, color = factor(UseOfInstagram)),
position = "jitter", size = 2) +
theme_light() +
labs(title = "Trudności z koncentracją a czas na mediach społecznościowych",
x = "Trudności z koncentracją",
y = "Dzienny czas na mediach społecznościowych",
color = "Korzystanie z Instagrama") + scale_color_manual(values = c("0" = "lightblue", "1" = "darkblue"))
ggplotly(plot)
Również tutaj można zaobserwować, że ankietowani używający Instagrama dużo częściej mają problemy z koncentracją, ale nie zależą one od czasu spędzonego na social media.
Podsumowując analizę można stwierdzić, że choć istnieją pewne trendy jeśli chodzi o wpływ czasu spędzanego na mediach społecznościowych na zdrowie psychiczne, to brak wystarczającej liczby danych (szczególnie w grupie korzystającej od 4 do 5 godzin dziennie) znacznie utrudnia wyciągnięcie konkretnych wniosków z tych danych. W celu dokładniejszej analizy i wyciągnięcia pełniejszych wniosków, potrzebujemy większej różnorodności w odpowiedziach, zwłaszcza w tej kategorii czasowej. Dodałoby to głębi analizy i umożliwiłoby bardziej precyzyjne zrozumienie wpływu mediów społecznościowych na zdrowie psychiczne.